A continuación se presenta un breve resumen de la estructura de la base de datos en cuestión
| bcs | pindex | enzyme_test | liver_test | age | gender | alc_mod | alc_heavy | y |
|---|---|---|---|---|---|---|---|---|
| 6.7 | 62 | 81 | 2.59 | 50 | 0 | 1 | 0 | 695 |
| 5.1 | 59 | 66 | 1.70 | 39 | 0 | 0 | 0 | 403 |
| 7.4 | 57 | 83 | 2.16 | 55 | 0 | 0 | 0 | 710 |
| 6.5 | 73 | 41 | 2.01 | 48 | 0 | 0 | 0 | 349 |
| 7.8 | 65 | 115 | 4.30 | 45 | 0 | 0 | 1 | 2343 |
ahora se presentan algunos gráficos para tener una idea de cuales variables pueden ser importantes para el modelo.
Observe que los histogramas para las distribuciones continuas son todos asimétricos lo cual sugiere que estas variables no se distribuyen normal.
Observe que las correlaciones entre las variables numéricas no es muy alta lo cual es deseable para evitar potenciales problemas de multicolinealidad. Por otro lado, los boxplots no muestran diferencias entre los promedios de edad respecto al género o consumo de alcohol (ya sea moderado o alto).
A continuación se realiza el proceso de selección de variables y modelos usando las metodologías directa (usando cross - validation) e indirecta (usando mejor subconjunto, selección hacia adelante y hacia atrás).
Observe que la suma cuadrática de los residuales no tiene una gran disminución a partir del modelo con 4 covariables. Por otro lado, según las métricas \(R_{\text{Adj}}^2, \ C_p \text{ de Mallows y } BIC\) los mejores modelos son aquellos que contienen 4 o 5 covariables, sin embargo no se sabe cuales son dichos regresores por lo que se procede a buscarlos.
Se tienen las siguiente covariables como las más importantes
En esta situación, \(R_{\text{Adj}}^2, \ C_p \text{ de Mallows y BIC}\) llegan a un concenso y todos consideran que el mejor modelo es aquel que considera 5 covariables; note además que la suma cuadrática de los residuales deja de tener un cambio notable justamente en el mejor modelo con 5 covariables.
Todas las métricas de desempeño consideradas llegan a que el mejor modelo es aquel que usa las covariables bcs, pindex, enezyme_test, liver_test y alc_heavy.
Las conclusiones del método backward son las mismas que las del método de mejor subconjunto, escogiendo como mejores covariables:
En este punto, se procede a seleccionar el mejor modelo usando cross - validation, en particular con las metodologías train - test split y K-Fold
Según MSE los mejores modelos usando los métodos del mejor subconjunto, selección adelante y hacia atrás respectivamente son aquellos con 8 y 6 covariables (mejor subconjunto y selección llegan al mismo resultado), sin embargo, se puede notar que a partir de los modelos de 4 covariables la disminución de este es mínimo y se pueden considerar mejores al ser más parsimoniosos, además como se vió con las métricas \(R_{\text{Adj}}^2, C_p, BIC\), los mejores modelos son aquellos que tienen 4 o 5 covariables por lo que se recomienda tomar dichos modelos.
Se usan 3 capas porque la base de datos tiene pocas observaciones
Nuevamente, el método de mejor subconjunto y el de selección hacia atrás concuerdan con el número de covariables que dan menor MSE mientras que el método de selección hacia adelante considera mejor el de 5 covariables.
Dado la escacez de observaciones, esta metología de cross validation es la más fiable de todas.
Finalmente, al usar LOOCV todos los métodos llegan a que el modelo con menor MSE es aquel que usa 5 covariables (se puede verificar que en este caso particular, los 3 MSE son iguales)
Después de analizar el desempeño de los modelos usando métricas indirectas (como \(R_{\text{Adj}}^2, \ C_p, \ BIC\)) y directas (MSE) se concluye que el número óptimo de covariables a usar es 5 pues en la métrica directa más adecuada para la situación presentada (LOOCV) los modelos con este número de covariables fueron los que obtuvieron un menor MSE. Por otro lado, según las métricas indirectas el número adecuado de covariables es 4 o 5 lo cual es coherente con lo mencionado anteriormente. Finalmente se escoge el modelo de 5 covariables que tuvo un menor MSE, dicho modelo usó las covariables bcs, pindex, enzyme_test, liver_test y alc_heavy, las cuales fueron detectadas previamente como las más importantes gracias a los métodos indirectos.